Optimización de Políticas con Mean Flow (MFPO)
Descubre cómo MFPO acelera el entrenamiento e inferencia en aprendizaje por refuerzo superando limitaciones de modelos de difusión.
Descubre cómo MFPO acelera el entrenamiento e inferencia en aprendizaje por refuerzo superando limitaciones de modelos de difusión.